) 的另一种表示。然后我们用这个「注意力分数矩阵」来加持一下 \\(V\\) ,这个点积过程就表示了「暗含信息 3」了。所以我们有了如下公式:</p>\n\n\\[\\begin{aligned}\nZ = Attention(Q,K,V) = Softmax(Q \\cdot K^T) \\cdot V\n\\end{aligned}\\]\n\n<p>其实到这里,这个注意力函数已经可以用了。有时候,为了避免因为向量维度过大,导致 \\(Q \\cdot K^T\\) 点积结果过大,我们再加一步处理:</p>\n\n\\[\\begin{aligned}\nZ = Attention(Q,K,V) = Softmax(\\frac{Q \\cdot K^T}{\\sqrt{\\smash[b]{d_k}}}) \\cdot V\n\\end{aligned}\\]\n\n<p>